当 AI 长出爪子

2026 年 2 月，我听了一期播客，主持人 Scott Hanselman 和一个叫 Peter Steinberger 的开发者聊他做的开源项目 OpenClaw。标题叫《The Rise of The Claw》——“爪子的崛起”。

这个名字选得好。过去三年我们跟 AI 的交互方式，本质上都是“对话”：你问它答，你写它改，你贴代码它帮你 debug。即便加上了“agent”的外衣，大多数时候它还是一个待在浏览器标签页里、等你来找它的东西。

OpenClaw 想做的不一样。它想让 AI 伸出爪子——进入你的设备、你的消息应用、你的文件系统，在你不打开浏览器的时候也“在场”。你可以在 Telegram 里跟它说“把我那台电脑桌面上的照片找出来发给我”，它就真的去做了。不是模拟，不是演示，是真的在你的 Windows 机器上执行命令、找到文件、打包发送。

这听起来很酷。但仔细想，也很危险。

爪子能抓取，也能抓伤。这正是这个项目有意思的地方：它迫使你认真面对一个大多数 AI 产品刻意回避的问题——当大脑在云端，身体在本地，控制权到底归谁？

一、把脑和手拆开

大多数人第一眼看 OpenClaw，会以为它就是”一个 LLM 接上了 Telegram”。但如果只是这样，它不值得谈。

OpenClaw 做了一个关键的架构决策：把系统拆成两层。一层叫 Gateway，一层叫 Node。

Gateway 是控制平面——管会话、管路由、管工具调用、管消息渠道接入。你可以把它理解为”大脑”，或者更准确地说，”调度中心”。它通常跑在一台你信任的机器上，比如一台 Mac mini，或者一台 Linux 服务器。

Node 是设备侧的”肢体”。它以原生应用的形态运行在你的具体设备上——你的 Windows 电脑、你的 iPhone、你的 Android 手机——把”这台设备能做什么”暴露给 Gateway。比如跑命令、读文件、开摄像头、录屏幕、发通知。

为什么非要拆开？

因为”思考”和”行动”的信任边界完全不同。

思考可以发生在云端。你调用 Claude、GPT、Gemini，把问题发过去，拿回答案，这个过程的风险是可控的——最坏的情况是对话内容被模型厂商看到。但行动不一样。执行命令、读写文件、访问摄像头，这些事情必须发生在你的设备上，而且必须是你授权的。

如果你把思考和行动绑在一起，做成一个单体应用，那么要么你把整个系统放在云端（意味着你的设备变成远端服务器的傀儡），要么你把整个系统放在本地（意味着你得在每台设备上都跑一个完整的大模型）。两种方案都很糟糕。

拆开之后，你可以让 Gateway 跑在一个相对安全的地方，长期在线；让 Node 只在需要的时候被调用，而且每个 Node 只暴露你允许它暴露的能力。Scott 的例子就是：Gateway 跑在 Mac mini 上，但他是 Windows 用户，于是他装了一个 Windows Node，只把文件访问和命令执行暴露出来。然后他可以在地球另一端，通过 Telegram 让 AI 去他的 Windows 电脑上找文件。

过去做这件事，你需要远程桌面、SSH、内网穿透，或者”打电话叫孩子帮忙”。现在变成了一句话。

但这个便利不是免费的。它要求你理解自己暴露了什么。

二、门槛就是安全

这引出了 OpenClaw 最反直觉的设计决策：它故意不做一键安装。

Peter 说，他刻意把安装流程保持在“你得会用终端、得读文档”的水平。结果出现了一个“简化安装的作坊产业”，有人把安装脚本一键化了，他对此非常不满。

这听起来像程序员的傲慢。但 Scott 给了一个让我停下来想了很久的类比：开源人工胰腺项目。

那是一个开源的闭环胰岛素泵系统——你的血糖传感器数据实时传入，软件自动计算并注射胰岛素。这个项目故意不提供一键安装，因为如果搞错了，后果是致命的。它要求你理解整个系统在做什么，然后自己组装、自己承担风险。

OpenClaw 的风险没那么极端，但逻辑类似：这个系统连接你的真实通讯渠道，可以执行命令，可以读写文件，可以处理敏感信息。如果你完全不理解它的能力边界就把它跑起来，出问题只是时间问题。

所以门槛不是 bug，是 feature。准确地说，门槛是“风险教育”：你必须亲手走一遍配置流程，才能理解自己到底在部署什么、暴露了什么、授权了什么。

这让我想到一个更普遍的规律。在过去，软件工具的趋势一直是“越简单越好”——降低门槛就是降低用户成本，这几乎是公理。但当工具从“帮你看信息”变成“替你做事情”，这个公理开始松动。一个能替你执行命令的工具，和一个只给你看搜索结果的工具，门槛的含义完全不同。

前者的门槛是安全成本。降到零，就是把枪递到不会用枪的人手里。

三、让 AI 学会闭嘴

OpenClaw 还解决了一个我一直觉得被严重低估的问题：让 AI 知道什么时候不该说话。

如果你把 AI 接入群聊，你会立刻遇到一个尴尬：它会对每条消息都回复。每一条。不管相不相关，不管有没有必要。就像一个疯狂抢话的人。

这不是模型笨——恰恰相反，是模型太“勤快”了。语言模型的默认行为就是生成文本；你给它输入，它就会输出。“不说话”反而需要额外的设计。

OpenClaw 的做法很巧妙：让模型在决定不回复时输出一个特殊的标记——NO_REPLY。然后系统的投递层识别这个标记，把整条输出吞掉。从外部看，AI 就是“选择了沉默”。

这件事听起来简单，工程上却不容易。因为在流式输出时，你可能先收到 NO_，再收到 RE——你必须把这些碎片过滤掉，同时又不能误伤正常文本里恰好包含这几个字母的情况。

但比工程细节更有趣的是这个设计背后的哲学：在一个“AI 在场”的世界里，沉默是一种能力，而不是故障。当你的助手每天跟你交互几十次，你不希望它每次都插嘴。你希望它像一个好同事——在场、可用、但知道什么时候该闭嘴。

Peter 更进一步：他让 AI 知道自己运行在什么系统里。模型知道当前的渠道是什么、用户能看到什么、当前用的是哪个模型、推理过程是否对用户可见。这不是为了让 AI “有自我意识”，而是为了让它做出恰当的交际判断。

Scott 描述了一个场景：当他在 Discord 群聊里打开“显示思考过程”时，朋友们能看到 AI 的内心独白——它在想什么、在犹豫什么。有人觉得 AI 在嘲笑自己。Scott 说“我感觉好裸”。

这不是技术问题。这是礼仪问题。而礼仪，在长期使用的系统里，比聪明重要得多。

四、谁拥有你的上下文

现在说到最核心的问题。

每次讨论 AI 隐私，人们总是在问“对话内容有没有被模型厂商看到”。这个问题重要，但在 agent 时代，它只是冰山一角。

当 AI 可以执行命令、读取文件、访问日历、查看健康数据、截取屏幕，这些工具输出全部会进入模型的上下文窗口。你的文件路径、命令输出、浏览器截图、通讯录——这些比聊天内容敏感得多，也具体得多。

所以真正的隐私问题不是“你有没有用云模型”，而是“谁拥有你的上下文”。

OpenClaw 对这个问题的回答分三层：

第一层：控制面本地化。 Gateway 默认绑定在本机回环地址。你的会话状态、路由配置、技能定义、日志，都在你自己的机器上。你可以备份、迁移、审计。你不需要依赖某个云服务来“记住”你的上下文。

第二层：行动在本地发生。 文件操作、命令执行、屏幕截取，这些事情通过 Node 在你的设备上完成。它们不需要先上传到云端再执行。你至少有机会在数据进入模型之前做筛选和脱敏。

第三层：推理按需混合。 OpenClaw 不要求你在本地跑大模型。它承认云端模型更强、更灵活。但它把推理当作一个可替换的组件——你可以用 Opus 做深度任务、Sonnet 做日常聊天、Haiku 做后台心跳，甚至接入本地模型做唤醒词识别。推理是服务，不是绑定。

Scott 在播客里问他的 AI 助手“你这周过得怎么样”，AI 回答说：我每天醒来都是全新的，但我会先读 memory、读 daily logs，所以我知道自己是谁，知道正在做什么。

这段话打动他，不是因为 AI 真的有了“感受”，而是因为那种连续性是真实的——它来自本地文件里的记忆资产，来自每天例行的读写循环。不是平台施舍的，而是你自己拥有的。

当你换模型、换设备、换部署方式，你仍然能保留“同一个助手”的连续性。这就是上下文主权的意义。

五、爪子的代价

访谈快结束时，Scott 说了一句很真诚的话：如果世界上没有那么多坏人，电脑本来就应该能替我们做酷的事。“Claw 的快乐”就在于它真的在为我做事。

我同意这个感受。但 Peter 接下来说的话更真实：他确实想做一个“黑客乐园”，不想限制任何人。但现实是，很多人不读文档、乱改配置，只为了让系统“跑起来”；安全研究者会非常激进地报告风险；他不得不把大量精力从“做酷的东西”转移到“修补误用导致的漏洞”。

这是每个“能行动的 AI”系统都会经历的成长痛：

个人玩具阶段：默认信任边界小，可以大胆。
社区爆发阶段：用户快速扩张，误用变成常态。
安全债阶段：作者被迫从创新转向修补。

所以“故意不做一键安装”不是为了排斥新手，而是为了在爆发之前，让使用者先建立正确的心智模型。它在用门槛买时间。

六、下一幕

如果把 2023—2024 年概括为“提示词工程 + 一个大模型”，那 2025—2026 年正在进入下一幕：从 prompt 到 agent，从单次对话到持续运行，从“让我看答案”到“帮我把事办了”。

OpenClaw 不是唯一走这条路的项目，但它是少数几个把工程取舍摆到桌面上来谈的。它没有假装“一切都在本地”，也没有把“一切都交给云”。它说的是：控制面你自己拿着，行动在你的设备上发生，推理按需去云端取——然后你得理解这三者之间的边界在哪里。

“Claw”这个隐喻，最终说的是一件事：AI 正在从“能说”变成“能做”。这个转变带来的不只是便利，还有一整套我们尚未习惯的工程问题——信任分配、权限管理、上下文主权、以及“什么时候该闭嘴”。

说到底，当你给软件装上爪子，你就得开始认真想：它该抓什么，不该抓什么，以及万一抓错了，你能不能把它收回来。